contents

머신러닝(Machine Learning, ML) 은 인공지능(AI)의 한 분야로, 컴퓨터가 모든 작업을 명시적으로 프로그래밍하지 않아도 데이터로부터 학습하고 경험을 통해 개선할 수 있는 능력을 부여하는 기술입니다. 이는 최소한의 인간 개입으로 패턴을 식별하고, 결정을 내리며, 예측을 하는 알고리즘을 만드는 과학입니다.

비유: 컴퓨터에게 고양이를 인식하는 방법을 가르치기 위해 "뾰족한 귀, 네 개의 다리, 수염이 있으면 고양이다"와 같이 상세한 단계별 레시피를 작성하는 대신, 수천 장의 고양이 사진을 보여줍니다. 그러면 컴퓨터는 스스로 기본 패턴을 학습합니다.


머신러닝과 전통적인 프로그래밍의 차이점

이는 머신러닝을 이해하는 데 가장 기본이 되는 개념입니다.

머신러닝 과정을 통해 만들어진 이 "규칙"을 모델(model) 이라고 부릅니다. 이 모델은 새롭고 보지 못했던 데이터에 대한 예측을 하는 데 사용될 수 있습니다.


머신러닝의 세 가지 주요 유형

머신러닝은 알고리즘이 학습하는 방식에 따라 크게 세 가지 유형으로 분류됩니다.

1. 지도 학습 (Supervised Learning) ✅

가장 일반적인 유형의 ML입니다. 알고리즘은 인간이 레이블(정답) 을 지정한 데이터셋으로부터 학습합니다. 훈련 중에 정답을 제공하기 때문에 "지도"를 받는다고 표현합니다.

2. 비지도 학습 (Unsupervised Learning) ❓

비지도 학습에서는 알고리즘에 레이블이 없는 데이터가 주어지며, "정답"의 안내 없이 스스로 패턴과 구조를 찾아야 합니다.

3. 강화 학습 (Reinforcement Learning) 🎮

이 유형의 학습은 행동 심리학에서 영감을 받았습니다. 알고리즘, 즉 "에이전트"는 환경과 상호작용하며 학습합니다. 좋은 행동에 대해서는 보상을 받고 나쁜 행동에 대해서는 벌점을 받으며, 시간이 지남에 따라 총 보상을 최대화하는 것을 목표로 합니다.


머신러닝 워크플로우 ⚙️

ML 솔루션을 구축하는 것은 여러 단계의 과정입니다.

  1. 데이터 수집: 문제에 필요한 원시 데이터를 수집합니다. 이미지, 텍스트, 센서 판독값, 스프레드시트 등이 될 수 있습니다.
  2. 데이터 준비 (전처리): 종종 가장 시간이 많이 걸리는 부분입니다. 데이터를 정제하고(결측값 처리, 오류 수정), 형식을 맞추며, 세 개의 세트로 분할합니다.
    • 훈련 세트 (Training Set): 모델을 훈련시키는 데 사용되는 가장 큰 부분.
    • 검증 세트 (Validation Set): 개발 중에 모델의 매개변수를 조정하는 데 사용.
    • 테스트 세트 (Test Set): 완전히 보지 못했던 데이터에 대한 최종 모델의 성능을 평가하기 위해 맨 마지막에 단 한 번만 사용.
  3. 모델 선택: 작업에 적합한 알고리즘을 선택합니다(예: 분류에는 결정 트리, 값 예측에는 선형 회귀).
  4. 훈련: 핵심적인 학습 단계입니다. 알고리즘이 훈련 데이터를 처리하고 패턴을 학습하여 모델을 생성합니다.
  5. 평가: 테스트 세트를 사용하여 모델이 얼마나 잘 작동하는지 확인합니다. 정확도, 정밀도, 재현율과 같은 지표가 성공을 측정하는 데 사용됩니다.
  6. 매개변수 튜닝: 모델의 설정(하이퍼파라미터)을 조정하여 성능을 개선합니다.
  7. 배포: 훈련된 모델을 실제 애플리케이션에 통합하여 예측을 시작할 수 있도록 합니다.

일반적인 알고리즘 및 응용 분야

references